【NLP】NLP数据标注工具汇总

写在前面

中文NLP领域比较困扰的点在于缺乏数据,尤其像事件抽取这样的任务。完全人工标注(不依赖标注系统)非常耗时费力,因为这不仅需要标注人员标注,还需要他们定位所标注的内容在句中或者篇章中的位置,非常容易出错。所以,想要搭建一个针对事件抽取的标注系统

在调研如何造轮子时,发现有些开源工具或许可以用,可以避免不必要的标注工具开发时间。这篇文章就对调研到的开源工具做一个简要汇总。

如果本文对你有帮助,记得在文末点赞+在看,也可以分享给你的朋友~~。

一、开源数据标注工具

1. BRAT

  • 安装环境:osx或者linux系统,windows(linux虚拟环境)

  • 标注任务支持:实体识别、实体关系抽取、事件抽取标注

  • 标注语言支持:可适配到中文标注

  • 标注任务扩展:可适配到Aspect-Based Sentiment Analysis方向数据标注

  • 相关🔗:

    • 官方介绍[1]

    • BRAT项目github地址[2]

    • brat使用[3]

2. prodigy

  • 标注任务支持:实体识别、分类、情感分析

  • 标注语言支持:只针对英文

  • 特点:基于主动学习的标注工具

3. Chinese-Annotator

  • 标注任务支持:中文命名实体识别、中文关系识别、中文文本分类

  • 安装环境:面向OSX

  • 特点:灵感来源Prodigy,基于主动学习的标注系统,同时支持用户标注

  • 相关🔗:

    • Chinese-Annotator项目github地址[4]

4. YEDDA

  • 标注任务支持:实体识别、实体关系抽取、事件抽取

  • 标注语言支持:支持大部分语言,包括英语、中文

  • 特点:基于python2、可标记种类数只有7种

  • 相关🔗:

    • YEDDA项目github地址[5]

5. IEPY

  • 标注任务支持:主要是关系抽取

  • 相关🔗:

    • IEPY项目github地址[6]

    • 官方说明文档[7]

6. Doccano

  • 标注任务支持:实体识别、情感分类、机器翻译

  • 标注语言:多语言

    • Doccano项目github地址[8]

    • Doccano实体标注演示demo[9]

7. Deepdive

  • 相关🔗:

    • DeepDive[10]

8. snorkel

  • 相关🔗:

    • snorkel项目github地址[11]

二、总结

目前来看要做中文领域事件抽取样本标注,可选用的是YEDDABRAT。笔者已经使用过BRAT来进行事件抽取标注了,后续针对BRAT的使用方法会专门出一期文章。

三、其他参考资料:

  • 2019常用NLP标注工具简单介绍[12]

  • 中文文本标注工具调研以及BRAT安装使用[13]

  • 语料标注工具1[14]

  • 语料标注工具2[15]

  • 语料标注工具3[16]

  • 情感分析系列之《利用BRAT进行中文情感分析语料标注》[17]

参考资料

[1]

官方介绍: http://brat.nlplab.org/introduction.html

[2]

BRAT项目github地址: https://github.com/nlplab/brat

[3]

brat使用: https://blog.csdn.net/guofei_fly/article/details/104113217

[4]

Chinese-Annotator项目github: https://github.com/deepwel/Chinese-Annotator

[5]

YEDDA项目github地址: https://github.com/jiesutd/YEDDA

[6]

IEPY项目github地址: https://github.com/machinalis/iepy

[7]

官方说明文档: https://iepy.readthedocs.io/en/latest/

[8]

Doccano项目github地址: https://github.com/doccano/doccano

[9]

Doccano实体标注演示demo: http://doccano.herokuapp.com/demo/named-entity-recognition/

[10]

DeepDive: http://deepdive.stanford.edu/labeling

[11]

snorkel项目github地址: https://github.com/snorkel-team/snorkel

[12]

2019常用NLP标注工具简单介绍: https://blog.csdn.net/weixin_44912159/article/details/103654550

[13]

中文文本标注工具调研以及BRAT安装使用: https://www.jianshu.com/p/3a70ee9ad632

[14]

语料标注工具1: https://zhuanlan.zhihu.com/p/64513343

[15]

语料标注工具2: https://zhuanlan.zhihu.com/p/64574125

[16]

语料标注工具3: https://zhuanlan.zhihu.com/p/64745990

[17]

情感分析系列之《利用BRAT进行中文情感分析语料标注》: https://blog.csdn.net/owengbs/article/details/49780225

关于NLP数据标注工具的内容就到这里了。如果本文对你有所帮助,记得点赞+在看,也可以分享给你需要的朋友~~。

 
 
 
 
 
 
 
 
 
 
往期精彩回顾




适合初学者入门人工智能的路线及资料下载(图文+视频)机器学习入门系列下载中国大学慕课《机器学习》(黄海广主讲)机器学习及深度学习笔记等资料打印《统计学习方法》的代码复现专辑机器学习交流qq群955171419,加入微信群请扫码:

a3376c8196b4d2a87b5d2448a29c1a89.png

  • 2
    点赞
  • 40
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
NLP(自然语言处理)是一门研究如何使计算机能够理解和处理人类语言的领域。Python是一种广泛用于编程的编程语言。结合PythonNLP可以进行各种自然语言处理任务,如文本分类、命名实体识别、情感分析等。在Python中,有许多流行的库和工具可供使用,以便进行NLP任务。以下是一些常用的Python库和工具: 1. NLTK(自然语言工具包):它是Python中最常用的NLP库之一,提供了许多用于文本预处理、词性标注、词袋模型、语法分析等任务的功能。 2. spaCy :这是另一个流行的Python库,它提供了高效的自然语言处理功能,包括分词、词性标注、命名实体识别和依赖解析等任务。 3. TextBlob :这是一个易于使用的Python库,它提供了一系列简单的API,用于处理常见的NLP任务,如情感分析、词性标注和文本分类。 4. Gensim :它是一个用于主题建模和文本相似度计算的Python库,可以用于处理大规模的文本数据。 5. Scikit-learn :这是一个通用的机器学习库,其中包含了许多用于文本分类、情感分析和文本聚类等任务的算法。 这些库和工具Python开发者提供了丰富的功能和资源,便于进行各种NLP任务的开发和实验。你可以根据具体的需求选择适合的库和工具,并结合相关的算法和技术来处理自然语言数据。希望这些信息能够帮助到你。 NLTK官方网站:https://www.nltk.org/ spaCy官方网站:https://spacy.io/ TextBlob官方网站:https://textblob.readthedocs.io/ Gensim官方网站:https://radimrehurek.com/gensim/ Scikit-learn官方网站:https://scikit-learn.org/stable/

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值